辩论 | 语言模型需要“感觉”吗?语言的边界在哪里?
The following article is from 计算神经语言学 Author 王书琪 Succi
欢迎订阅公众号或者合集!观学术争鸣,集众家之长。感兴趣请阅读原文。
本辩论是“深度学习哲学”(philosophy of deep learning)会议的一部分,该会议聚焦人工智能和认知科学的最新进展,详情请关注官网: https://phildeeplearning.github.io
正方 | LeCun | Lake | Browning |
反方 | Pavlick | Chalmers | Lupyan |
正方: LeCun, Lake, Browning
LeCun:
“机器学习烂透了”(machine learning sucks);
我们需要“世界模型”(world model)来构建“自主智能”(autonomous intelligence)
Lake:
语言模型确实厉害;
但是和人类的语言理解方式不同 Browning:
一些思想可以通过语言表达,而另一些却不能;
人类之所以能够理解语言,是因为有以往的多模态(multi-modal)经验 作为背景知识
下面我们将逐一介绍这三个人的观点。
LeCun认为,和人以及动物相比,机器学习烂透了。因为基于机器学习的AI会犯愚蠢的错误,而且也不会推理(reason)和计划(plan);相较而言,人类和动物则能够很快地学习新的任务,能够理解世界是如何运行的,能够推理和计划,而且有常识(common sense)。
除了认为机器学习烂透了之外,LeCun还认为自回归大语言模型也没前途(Auto-Regressive LLMs are doomed)。因为一旦犯一点小错误,这种错误就会在自回归中被指数倍地放大(见下图),而且还没办法修复这种错误。
那么怎么应对这些挑战?AI未来的发展方向又是什么呢?LeCun借鉴认知神经科学的架构,提出了通过“世界模型”来构建“自主智能”的设想(如下图所示)。其中,行动器(actor)计划行动序列,并找到最优行动序列以最小化成本(cost)或“不适”(discomfort),世界模型(world model)预测未来的世界状态,感受器(perception)评估世界状态。该系统的目标是让自己“开心”,即最小化成本或“不适”。
LuCun的自主人工智能的模块架构
(1)预测是智能的核心;
(2)几乎所有的事情都能够通过自监督学习(self-supervised learning)习得;
(3)推理=模拟/预测+目标的最优化;
(4)像H-JEPA(hierarchical joint embedding predictive architecture)这样的非对比训练(non-contrastive training)很有前景;
(5)考虑内在成本(intrinsic cost)可以让系统变得可控;
(6)情感对自主智能很重要。
Lake认为,要想让语言模型像人一样理解就必须要有具身感觉(如视觉)。Lake做了一系列“特殊雨伞测试”(ad hoc umbrella test)来探究一个人对词义的理解到底包含哪些内容以及AI模型能否像人类一样理解词义。所谓“特殊雨伞”,指的是动物用来遮雨的树叶或蘑菇等自然界物体(如下图所示)。人类可以很容易地将这些自然界物体类比为雨伞,但对于AI模型来说却没那么容易。
Lake使用“图片说明模型”(image captioning system)circa 2020和circa2023来描述这些“特殊雨伞”,结果发现这两个版本的模型都不能识别图中的“特殊雨伞”(如上图文字所示)。这是因为人类能够进行类比和抽象,对词义的理解有更丰富的内涵,而该模型则不具备这种能力。
(4) 能够根据语言输入改变对世界的信念(belief)。
Browning首先从哲学史出发,介绍了二十世纪“逻辑主义”(logicism)的观点及其对科学研究的影响。逻辑主义的核心观点是,所有思想都是命题的(propositional),所有知识都是语言的(linguistic)。正如维特根斯坦所言“所有真命题的全体即是自然科学的全部”(the totality of true propositions is the whole of nature science)。逻辑主义认为,认知的核心是语言,非语言的加工过程如知觉、运动、情感等都不是认知,因此对计算机来说会很简单。
于是,1966年,麻省理工学院做了一个教计算机“看”东西的项目,即麻省理工暑期视觉项目(MIT summer vision project),研究者以为像视觉这种非语言的能力对计算机来说会很简单,但是项目却失败了。该项目的失败表明,视觉的加工也很困难;一些思想可以通过语言表达,而另一些却不能。
(3) 第三种表征形式是分布式的(distributed)。它存在于神经网络中(包括生物的和人工的)。该表征的关键是根据某个函数形成一个对表征物的统计模型。这种表征比较擅长表征“技能”(skills or know-how),但是不太擅长表征语言。
Browning指出,逻辑主义的问题在于:过于强调语言表征,而忽视了其他两种表征形式,因此它忽视了其他动物和婴儿所掌握的认知形式,如图像推理、熟练的技能、情感等。
因此,Browning介绍了另一种哲学观点——实用主义(pragmatism)。其观点是,认知的核心是非语言的,它是以行为和预测为基础的,不是被动的刺激,而是主动将世界划分为“愉悦”和“痛苦”的部分,并熟练地“趋利避害”以求在不利的环境中生存下来。
在语言观上,该主义认为,语言不是思考和储存知识的工具,而是社会技能的一部分,是主体(agents)间交流的工具。而交流需要背景知识,主体间有越多共同的背景知识(比如相似的出身、技能、文化等),就需要越少的语言、越容易彼此理解。因此,语言之所以能够发挥作用,是因为说话者本身就具有了一定的多模态具身技能和社交意识,从而实现成功的交流。
轮扁曰:“斫轮,徐则甘而不固,疾则苦而不入,不徐不疾,得之于手而应于心,口不能言,有数存焉于其间....古之人与其不可传也死矣,然则君之所读者,古人之糟粕已夫!”
——《庄子·天道》
反方: Pavlick, Chalmers, Lupyan
Pavlick: 感觉不是意义的必要前提; 即使给语言模型赋予“感觉”,也不会让它的语言理解变得更好; 语言模型可以被后续再赋予感觉(be grounded posthoc)
Chalmers:
语言模型并不需要感觉去理解;
但这事儿比较复杂 Lupyan:
具体词(如“苹果”)和抽象词(如“自由”)一样,其意义都深嵌于(embedded)语言中;
即使是具体词,也不需要感觉去理解它
下面我们将逐一介绍这三个人的观点。
第一个是“视觉语言模型”(vision-and-language model)实验[1]。研究者将视觉语言模型VideoBERT和VisualBERT和其相对应的纯文字语言相对比,结果发现,多模态语言模型并没有比纯文字模型表现更好(见下图)。
Pavlick的第二个实验[2]探究了语言模型与现实世界概念空间(conceptual space)的映射关系。以颜色为例,Pavlick通过小样本学习(few-shot learning)的方法教会GPT-3去回答RGB编码所对应的颜色,然后在三个“世界”中测试模型对颜色修饰词的理解。
(3) “随机世界”(random world)。此时某个颜色对应其他的RGB编码,且映射关系是打乱的。如上图右边所示,很难理解“dark”具体是什么意思。
Pavlick第二个实验的结果。纵坐标为正确率。横坐标为不同的测量指标。
总的来说,Pavlick的实验结果表明:(1)给语言模型增加感觉并不能显著提高它的理解能力;(2)语言模型学到的表征和非语言的世界表征非常相似,可以后续再对其赋予“感觉”。
Chalmers | 语言模型不需要感觉去理解,但这事儿比较复杂
Chalmers围绕这个辩题提了四个问题,并一一作出回答。
回答:不需要。
回答:需要。
一项对比纯文本大语言模型(text-only LLMs)和多模态大语言模型(multimodal LLMs)的实验表明,多模态大语言模型某些时候可能会比纯文本大语言模型表现好,但有些时候不能。而且在二者共有的领域上,比如认知测试和推理任务上,二者并没有显著差异。而且,现在的纯文本大语言模型已经能在很多非语言任务上表现出色了(比如GPT-4)。
Chalmers把“理解”分为两种:“行为理解”(b-understanding, “b”指behavior行为)和“经历理解” (e-understanding, “e”指experience经历)。他认为目前的语言模型只能行为上看起来像理解了,但是还不具有主观理解能力,不能去主观“经历”一些事情。
Lupyan | 具体词和抽象词的意义都深嵌于语言中
Lupyan从对具体词和抽象词的理解中讨论这个辩题。
首先他指出,人们平时把抽象词想得太难了。提到抽象词总会想到“自由”“民主”这样的“大词”,但其实很多我们日常使用的词、甚至是三四岁小朋友都能使用的词也是抽象词,比如“fun”(有趣) “enjoy”(享受) “agree”(同意) “nevertheless”(但是)等,我们很难说“nevertheless”这个词能有什么感觉基础。
在一项英语词汇具体性评估的实验中[4],发现很多词都比“自由”更抽象,而且这些词能够被三四岁小朋友所使用(如下图)。
接着,Lupyan使用ChatGPT强有力地反驳了正方Lake的“特殊雨伞”实验。他让ChatGPT想象自己是森林里的小虫子,问它可以用什么作为雨伞。结果,ChatGPT给出了一系列森林中可以当作雨伞的东西,比如树叶、蘑菇、草等(见下图)。这表明,纯文字的语言模型也能够理解人类语言中“雨伞”的核心概念。
Lupyan问ChatGPT在森林中可以用什么当雨伞以及ChatGPT的回答。
人类和Google新闻词嵌入(word embeddings)对单词具体性打分的相关性。纵坐标为斯皮尔曼相关性,横坐标为具体性。
但是,对于一些感觉词的意义(perceptual word meaning)的理解,总需要具身感觉吧?比如“glistening”(闪烁的)、“transparent”(透明的)。但是一项对盲人的研究[5]发现,盲人和视力正常的人对视觉词的理解的相关性很高。这表明,盲人虽然看不见,但也能够像正常视力的人一样对视觉词有深刻复杂的理解。
Lupyan进一步让语言模型(词嵌入模型)做了相同的实验[6],然后计算其结果和盲人以及视力正常人的相关性。结果发现,语言模型的结果和盲人以及视力正常人的结果具有高度相关性。
对比语言模型和盲人以及视力正常的人对视觉词的理解结果。发现语言模型的结果和盲人以及正常人的结果有高度相关性,相关性在0.6左右。
最后,Lupyan总结道,虽然儿童早期的语言是基于具身感觉的(heavily grounded),但是到了两岁半的时候就能说很多抽象的词了,其实我们说的很多内容都和直接的具身感觉没有关系。
本辩论探讨了语言模型到底需不需要具身感觉来思考和理解,背后一个更大的问题是:语言和思想的关系是什么,语言文字的边界在哪里。是“语言的边界就是思想的边界”,还是像庄子说的“只可意会,不可言传”?本公众号前一段时间介绍了一篇Nature的文章,该文章认为AI需要具身感觉才能真正理解这个世界:Nature子刊 | 超越语言文字,让下一代 AI真正理解世界
关于这个问题你怎么看?欢迎留言讨论。
参考文献
[1] Yun, T., Sun, C., & Pavlick, E. (2021). Does Vision-and-Language Pretraining Improve Lexical Grounding? ArXiv Preprint ArXiv:2109.10246.
[2] Patel, R., & Pavlick, E. (2022). Mapping language models to grounded conceptual spaces. International Conference on Learning Representations.
[3] Merullo, J., Castricato, L., Eickhoff, C., & Pavlick, E. (2023). Linearly Mapping from Image to Text Space (arXiv:2209.15162). arXiv. https://doi.org/10.48550/arXiv.2209.15162
[4] Brysbaert, M., Warriner, A. B., & Kuperman, V. (2014). Concreteness ratings for 40 thousand generally known English word lemmas. Behavior Research Methods, 46, 904–911.
[5] Bedny, M., Koster-Hale, J., Elli, G., Yazzolino, L., & Saxe, R. (2019). There’s more to “sparkle” than meets the eye: Knowledge of vision and light verbs among congenitally blind and sighted individuals. Cognition, 189, 105–115.
[6] Lewis, M., Zettersten, M., & Lupyan, G. (2019). Distributional semantics as a source of visual knowledge. Proceedings of the National Academy of Sciences, 116(39), 19237–19238.
点击“阅读原文”观看完整辩论视频↓
今日责编:建国